连载:统计图形艺术——条形图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,运用合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究结果,这就是统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处待优化,欢迎提供素材。
01 条形图Bar Plot
现代条形图,由苏格兰著名工程师William Playfair发明(1)。Playfair于1787年出版的《The Commercial and Political Atlas (Edition 2)》专著中,首次采用条形图来描述1780年圣诞节到1781年圣诞节这一年期间,苏格兰对不同国家和地区的进出口贸易情况。Playfair作为统计图形方法(graphical method for statistics)的创始人,其一生创造了多种统计图形。
1780-1781年间苏格兰进出口贸易情况
事实上,条形图之雏形可再往前溯300余年。法国数学家Nicole Oresme于1350年用条形图来描述某一加速物体随时间推移之速度变化(2)。横轴代表时间,纵轴代表速度。原图中没有任何刻度,也没有给出速度数值,表达不够清晰。尽管如此,图中各条形宽度相同这一点特点仍沿用至今。
加速物体随时间推移的速度变化情况
用于多组间的频数、均数、率的描述,便于组间比较;
用于具有等级关系的多组的指标趋势展示。
基础条形图
以脐带血清中所测元素组学和儿童发育的关联研究(association study)为例,对464名新生儿脐带血进行元素组学检测,获得56种元素的暴露水平。
本例中的结局指标为儿童36个月Bayley量表评分中的粗大运动(gross motor)是否发育迟缓。将和结局相关联的元素进行线性组合而得到元素风险得分(ERS),将其分为5等份(x轴),用条形图(左图)展示各组内的发育迟缓比例(y轴)。
右图加以背景衬托,在顶端显示频数,更为美观。
元素暴露风险得分和儿童神经发育迟缓
堆积条形图
堆积条形图是条形图的扩展,用于显示各组多指标堆叠(相加)效果,以便于组内各指标间的比较和多组间总和的比较。
以某高校教职人员不同级别[助理教授(Assistant Professor),副教授(Associate Professor),教授(Professor)]的男(Male)女(Female)构成数据为例;通过堆积条形图,一可清晰反映出各级别教授的数量差异,二可清晰体现各层级教授的男女人数差异。
若变量为频数,则亦可通过改变position = 'fill'参数,将y轴尺度改为构成比(右图)。
不同级别教授中性别构成情况
分组条形图
分组条形图可以用于比较不同组间的差异。
以BNT162b2信使RNA疫苗的接种为例,在136例确诊或疑似心肌炎患者中,接种第1剂疫苗后19例出现症状,在接种第2剂疫苗后117例出现症状。
下图反映了第2次给药后按年龄和性别的病例分布。
第2次给药后按年龄和性别的病例分布
误差线条形图
常规条形图用柱子高度来描述平均水平,而缺少变异程度信息。因此,通常在条形图各柱子顶端添加(+/-)误差线,误差线长即为变异度。
误差线代表的是个体变异(如标准差)还是抽样误差(如标准误),须在图例中明确说明。以新英格兰杂志中的临床研究论文为例,基线特征描述时,用标准差,疗效指标描述时,用标准误。
以R中自带的鸢尾花(iris)特征数据为例,用条形图展示3种鸢尾花形态数据的均值及变异(标准差)。
鸢尾花形态数据的均值及变异
瀑布图
瀑布图采用绝对值与相对值结合的方式,展示数个特定数值之间的变化关系(或差异)。
以101例某实体瘤患者靶病灶最长直径总和较之基线(治疗前)变化幅度(百分比)这一疗效指标为例;评估白蛋白-紫杉醇联合吉西他滨治疗以前未经治疗的局部晚期胰腺癌的有效性。
下图中,0水平线代表病情稳定,0水平线上代表病情恶化(蓝色),之下(红色)代表病情较之基线有所好转。直观可见,大多数患者经白蛋白-紫杉醇联合吉西他滨诱导期治疗而获益。
紫杉醇联合吉西他滨治疗
未经治疗局部晚期胰腺癌的疗效
极坐标条形图
极坐标条形图,即条形图按照极坐标展示,呈围绕原点的放射状,每栏顶部放射状显示其标签。
以柳叶刀(Lancet)上最新发表的接种3针疫苗人群中新冠Delta和Omicron毒株感染者临床症状差异数据为例(3),极坐标图清晰可见不同临床症状发病率之差异,和不同毒株所致临床症状之差异。
新冠Delta和Omicron毒株感染者
临床症状差异对比
螺旋条形图
螺旋条形图,是沿着阿基米德螺旋线绘制图的条形图,从螺旋的中心向外螺旋展延伸。适用于周期性数据展示。
以2015-2016年的比特币价格为例绘制螺旋条形图,通过颜色的变化以反映比特币价格涨跌。
比特币价格涨跌螺旋条形图
针板图
针板图,即用形如细针的线来代替条,形似一根根细针插在砧板的两面。上下两侧,描述不同变化方向的数据(如效应的方向)。
本例选取纽约航空数据中各类航班平均延误时间来展示二维针板图。延误时间若为负数(下方蓝“针”),则航班为提前到达。
纽约纽瓦克机场各航空公司航班延误情况
动态排序柱状图
与静态柱状图相比,动态柱状图可使读者更直接的感受到数据变化过程,有助于深入理解数据的趋势。
以多个国家新冠疫苗累计接种人数为例,通过动态柱状图反映各国疫苗接种人数随时间的变化情况,以及增长速度之变化。
全球疫苗接种累计人数变化
参考文献:
Murdin P. Encyclopedia of astronomy & astrophysics. CRC Press; 2001.
Spence I, Wainer H. William playfair. In: Heyde CC, Seneta E, Crépel P, Fienberg SE, Gani J, editors. Statisticians of the centuries [Internet]. New York, NY: Springer New York; 2001. p. 105–10. Available from:
https://doi.org/10.1007/978-1-4613-0179-0_21
Menni C, Valdes AM, Polidori L, Antonelli M, Penamakuri S, Nogal A, et al. Symptom prevalence, duration, and risk of hospital admission in individuals infected with SARS-CoV-2 during periods of omicron and delta variant dominance: A prospective observational study from the ZOE COVID study. The Lancet [Internet]. 2022; Available from:
https://www.sciencedirect.com/science/article/pii/S0140673622003270
写作:张隆垚,朱晨旭,魏永越*
排版:李 颖
指导:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技